智能论文笔记

Semi-self-supervised Automated ICD Coding

Hlynur D. Hlynsson , Steindór Ellertsson , Jón F. Daðason , Emil L. Sigurdsson , Hrafn Loftsson

分类：自然语言处理 | 机器学习 | (统计)机器学习

2022-05-20

临床文本注释（CTN）包含医生的推理过程，以非结构化的自由文本格式编写，他们检查和采访患者。近年来，已经发表了几项研究，这些研究为机器学习的实用性提供了证据，以预测CTN的医生诊断，这是一项称为ICD编码的任务。数据注释很耗时，尤其是在需要一定程度的专业化时，就像医疗数据一样。本文提出了一种以半自我监督的方式增强冰岛CTN的稀疏注释数据集的方法。我们在一小部分带注释的CTN上训练神经网络，并使用它从一组未通畅的CTN中提取临床特征。这些临床特征包括对医生可能会在患者咨询期间找到答案的大约一千个潜在问题的答案。然后，这些功能用于训练分类器以诊断某些类型的疾病。我们报告了对医生的三个数据可用性评估该数据增强方法的评估结果。我们的数据增强方法显示出显着的积极作用，当检查患者和诊断的临床特征时，这会减少。我们建议使用基于不包括考试或测试的临床特征做出决策的系统增强稀缺数据集的方法。

translated by 谷歌翻译

学习包括不同对象之间接触的动态系统的物理结构化表示是机器人技术中基于学习的方法的重要问题。黑盒神经网络可以学会大致表示不连续的动态，但是它们通常需要大量数据，并且在预测更长的时间范围时通常会遭受病理行为。在这项工作中，我们使用深层神经网络和微分方程之间的连接来设计一个深网架构家族，以表示对象之间的接触动态。我们表明，这些网络可以从传统上难以实现黑盒方法和最近启发的神经网络的设置中的嘈杂的观察结果中以数据效率的方式学习不连续的联系事件。我们的结果表明，一种理想化的触摸反馈形式（由生物系统严重依赖）是使这一学习问题可以解决的关键组成部分。加上通过网络体系结构引入的电感偏差，我们的技术可以从观测值中准确学习接触动力学。

translated by 谷歌翻译